音频转文字分析
工作里面需要用到音频转成文字做数据分析,自己就想着测试下看看,现在Python音频转文字的方法用很多种,其中比较常用的有:
1.调用百度AI,科大讯飞,google等api
2.自己做数据挖掘,利用神经网络等算法训练
因为自己去做音频转化需要非常专业的音频方面的知识,不是研究这方面的数据分析师是很难做出很好的算法,而百度和科大讯飞本身已经做的很好的了,本身也赠送了一定的免费使用时间,我这里就使用他们的api做一下调用,分析下他们的转化效果.
PS:我这里的代码是使用百度和科大讯飞的demo去写的,感兴趣的可以直接去官方查看,链接如下:
科大讯飞:https://www.xfyun.cn/
百度ai:https://ai.baidu.com/ai-doc/
转化的文字在下面,这里直接分析的结果:
- 百度翻译的内容完全看不懂啊…
- 科大讯飞不愧是语音起家的,翻译的结果确实比百度ai的要好一点,但是涉及专业的部分及语音问题仍然不够好
- 如果使用自己公司的数据库,添加专业用词,进行算法训练,建立模型,可能会对实际的业务有更好的适用性,需要测试
- 隐私内容已用xxxxx消敏
#!/usr/bin/env python
# -*- coding: utf-8 -*-
import requests
import json
import sys
import base64
import hashlib
import hmac
import os
import time
import datetime
import re
import ssl
#百度api
IS_PY3 = sys.version_info.major == 3
if IS_PY3:
from urllib.request import urlopen
from urllib.request import Request
from urllib.error import URLError
from urllib.parse import urlencode
timer = time.perf_counter
else:
from urllib2 import urlopen
from urllib2 import Request
from urllib2 import URLError
from urllib import urlencode
if sys.platform == "win32":
timer = time.clock
else:
# On most other platforms the best timer is time.time()
timer = time.time
import ssl
ssl._create_default_https_context = ssl._create_unverified_context
#填写百度控制台中相关开通了“音频文件转写”接口的应用的的API_KEY及SECRET_KEY
API_KEY = 'xxxxx'
SECRET_KEY = 'xxxxx'
""" 获取请求TOKEN start 通过开通音频文件转写接口的百度应用的API_KEY及SECRET_KEY获取请求token"""
class DemoError(Exception):
pass
TOKEN_URL = 'https://openapi.baidu.com/oauth/2.0/token'
# SCOPE = 'brain_bicc' # 有此scope表示有asr能力,没有请在网页里勾选 bicc
SCOPE = 'brain_asr_async' # 有此scope表示有asr能力,没有请在网页里勾选
# SCOPE = 'brain_enhanced_asr' # 有此scope表示有asr能力,没有请在网页里勾选
def fetch_token():
params = {
'grant_type': 'client_credentials',
'client_id': API_KEY,
'client_secret': SECRET_KEY}
post_data = urlencode(params)
if (IS_PY3):
post_data = post_data.encode( 'utf-8')
req = Request(TOKEN_URL, post_data)
try:
f = urlopen(req)
result_str = f.read()
except URLError as err:
print('token http response http code : ' + str(err.code))
result_str = err.read()
if (IS_PY3):
result_str = result_str.decode()
# print(result_str)
result = json.loads(result_str)
# print(result)
if ('access_token' in result.keys() and 'scope' in result.keys()):
if not SCOPE in result['scope'].split(' '):
raise DemoError('scope is not correct')
# print('SUCCESS WITH TOKEN: %s ; EXPIRES IN SECONDS: %s' % (result['access_token'], result['expires_in']))
return result['access_token']
else:
raise DemoError('MAYBE API_KEY or SECRET_KEY not correct: access_token or scope not found in token response')
""" 获取鉴权结束,TOKEN end """
""" 发送查询结果请求 """
#转写任务id列表,task_id是通过创建音频转写任务时获取到的,每个音频任务对应的值
task_id_list = [
"xxxxx"
]